4.1 因果效应观察性实验中无混杂性的难点

#CausalDiagram #UnbiasedEstimation #ObservationalStudy #Confoundness

第三部分"观察性实验"基于两个重要的假设: 无混杂性 (即可忽略性) 和 重合度. 它们都是很强的假设. 4.1～4.3 会讨论无混杂性不成立的情形, 4.4 会讨论重合度不成立的情形.

1 因果图基础

因果图是因果推断的一种重要的工具. 例如
Pasted image 20260330122810.png|200
然后我们关注 $Z$ 在 $Y$ 上的因果效应, 我们可以按如下流程读取 ${\begin{aligned} X \sim F_{X} (x), \\ Z = f_{Z} (X, ε_{Z}), \\ Y (z) = f_{Y} (X, z, ε_{Y} (z)), \end{aligned}$ 这里对 $z = 0, 1$ 都有 $ε_{Z} ⊥ ⊥ ε_{Y} (z)$ . 这里协变量 $X$ 从分布 $F_{X} (x)$ 生成, 实验分配是一个关于 $X$ 和随机误差项 $ε_{Z}$ 的函数, 潜在结果 $Y (z)$ 是一个 $X$ , 分配结果 $z$ 和随机误差项 $ε_{Y} (z)$ 的函数. 这样 $Z ⊥ ⊥ Y (z) | X$ , 也即无混杂性假设成立.

如果我们的因果图为
Pasted image 20260330123141.png|200
我们可以这样读取 ${\begin{aligned} X \sim F_{X} (x), \\ U \sim F_{U} (u), \\ Z \sim F_{Z} (X, U, ε_{Z}), \\ Y \sim F_{Y} (X, U, z, ε_{Y} (z)), \end{aligned}$ 这里 $ε_{Z} ⊥ ⊥ ε_{Y} (z)$ , $z = 0, 1$ . 所以 $Z ⊥ ⊥ Y (z) | (X, U)$ , 但是 $Z ⊥̸ ⊥ Y (z) | X$ , 也即无混杂性对 $(X, U)$ 成立但并不对 $X$ 单独成立. 这样 $U$ 就是个不可观测的混杂变量.

2 评估无混杂性假设

无混杂性假设 $Z ⊥ ⊥ Y (1) | X, Z ⊥ ⊥ Y (0) | X,$ 说明 $\begin{aligned} P (Y (1) | Z = 1, X) = P (Y (1) | Z = 0, X), \\ P (Y (0) | Z = 1, X) = P (Y (0) | Z = 0, X) . \end{aligned}$ 所以无混杂性假设要求反事实分布观察到的分布相等: $\begin{aligned} P (Y (1) | Z = 0, X) = P (Y (1) | Z = 1, X), \\ P (Y (0) | Z = 0, X) = P (Y (0) | Z = 1, X) . \end{aligned}$ 因为反事实分布无法直接从数据识别, 所以无混杂性假设本质上无法在没有额外假设的情况下检验. 我们介绍两种方法来"评估"无混杂性是否成立^[1].

2.1 使用阴性结果

去找一个类似 $Y$ 的结果 $Y^{n}$ , 理想状态下有着相同的混杂变量. 如果我们相信 $Z ⊥ ⊥ Y (z) | X$ , 则我们相信 $Z ⊥ ⊥ Y^{n} (z) | X$ . 进一步地 $τ (Z \to Y^{n}) = E [Y^{n} (1) - Y^{n} (0)] .$ 这样我们可以判断是否成立 $τ (Z \to Y^{n}) = 0$ :
Pasted image 20260330141829.png|250

阴性结果的例子

烟草公司辩解在吸烟和肺癌中, 存在混杂变量 "基因" (有些基因让人又喜欢抽烟又会导致肺癌). 研究人员找了阴性结果 "车祸", 发现吸烟对车祸的因果效应接近 $0$ . 这能支持吸烟导致肺癌的结论.
因为因果有时间顺序, 所以现在的干预不可能穿越时空去改变过去的结果. 所以干预对过去的因果效应一定是 $0$ .
"流感疫苗" 能降低 "肺炎死亡率". 但是实验人员用流感疫苗给流感季前的人打, 却也有下降, 这说明存在混杂变量: 愿意打疫苗的老人, 本身就身体底子更好、更注重养生.

2.2 使用阴性暴露

阴性暴露是阴性结果的对偶. 假设 $Z^{n}$ 是一个分配变量, 类似 $Z$ , 有相同的混杂变量结构. 如果我们相信 $Z ⊥ ⊥ Y (z) | X$ , 则 $Z^{n} ⊥ ⊥ Y (z) | X$ . 进一步地, $τ (Z^{n} \to Y) = E [Y (1^{n}) - Y (0^{n})] .$ 然后判断是否有 $τ (Z^{n} \to Y) = 0$ .
也就是说, 我们用一个 "假原因" 对应 $Z$ 来重新分配.
Pasted image 20260330143739.png|250

例子

我们想研究 "妈妈抽烟" 对 "肚子里宝宝健康影响", 可能的混杂变量是 "家庭收入、饮食、工作"等. 我们检查 "爸爸抽烟" 对宝宝有无影响, 发现和 "妈妈抽烟" 的影响一样大, 这说明是混杂变量导致的.

3 过度调整的问题

我们讨论了无混杂性 $Z ⊥ ⊥ {Y (1), Y (0)} | X$ 下因果效应的估计. 这是个在 $X$ 条件下的假设. 如何选取 $X$ 来实现条件独立是很重要的. 我们需要尽可能扩大 $X$ 涉及的范围. 但是有些时候这个建议是不对的.

3.1 M 偏差

考虑下图:
Pasted image 20260330162700.png|200
我们可以得到读取顺序: ${\begin{aligned} U_{1} ⊥ ⊥ U_{2}, \\ X = f_{X} (U_{1}, U_{2}, ε_{X}), \\ Z = f_{Z} (U_{1}, ε_{Z}), \\ Y = f_{Y} (U_{2}, ε_{Y}) = Y (z) . \end{aligned}$ 这里 $(ε_{X}, ε_{Z}, ε_{Y})$ 是独立的随机误差项. $X$ 能被观测, 但 $U_{1}, U_{2}$ 不能被观测. 如果我们改变 $Z$ 的值, $Y$ 并不会被改变. 所以 $Z$ 对 $Y$ 的因果效应为 $0$ : $τ_{PF} = E [Y | Z = 1] - E [Y | Z = 0] = 0.$ 这意味着不修改协变量 $X$ , 这个简单的估计是无偏的. 但是在 $X$ 上, $U_{1} ⊥̸ ⊥ U_{2} | X$ , 因此 $Z ⊥̸ ⊥ Y | X$ , 以及一般地 $\int {E [Y | Z = 1, X = x] - E [Y | Z = 0, X = x]} f (x) d x \neq 0.$
我们考虑一个线性模型 ${\begin{aligned} X = a U_{1} + b U_{2} + ε_{X}, \\ Z = c U_{1} + ε_{Z}, \\ Y = Y (z) = d U_{2} + ε_{Y}, \end{aligned}$ 这里 $(U_{1}, U_{2}, ε_{X}, ε_{Z}, ε_{Y}) \overset{i . i . d}{\sim} N (0, 1)$ . 我们有 $Cov (Z, Y) = Cov (c U_{1} + ε_{Z}, d U_{2} + ε_{Y}) = 0,$ 但 $\begin{aligned} ρ_{Z Y | X} & = \frac{ρ_{Z Y} - ρ_{Z X} ρ_{Y X}}{\sqrt{1 - ρ_{Z X}^{2}} \sqrt{1 - ρ_{Y X}^{2}}} \propto - ρ_{Z X} ρ_{Y X} \\ \propto - Cov (Z, X) Cov (Y, X) = - a b c d, \end{aligned}$ 是 $Z$ 到 $Y$ 路径上的系数的乘积. 所以不调整的估计量是无偏的, 但是调整后偏差则正比于 $a b c d$ .

3.2 Z 偏差

考虑下面的因果图
Pasted image 20260330165909.png|300
数据读取流程为 ${\begin{aligned} Z = a X + b U + ε_{Z}, \\ Y (z) = τ z + c U + ε_{Y}, \end{aligned}$ 这里 $(U, X, ε_{Z}, ε_{Y}) \overset{i . i . d}{\sim} N (0, 1)$ . 我们有 $X ⊥ ⊥ U$ , $X ⊥̸ ⊥ Z$ , 且 $X$ 只通过 $Z$ 影响 $Y$ . 不调整的估计量为 $\begin{aligned} τ_{unadj} & = \frac{Cov (Z, Y)}{Var (Z)} = \frac{Cov (Z, τ Z + c U)}{Var (Z)} \\ = τ + \frac{c Cov (a X + b U, U)}{Var (Z)} = τ + \frac{c b}{a^{2} + b^{2} + 1}, \end{aligned}$ 偏差为 $\frac{b c}{a^{2} + b^{2} + 1}$ . 通过 $Y$ 在 $(Z, X)$ 上的 OLS 得到的调整后的估计量满足 ${\begin{aligned} E [Z (Y - τ_{adj} Z - α X)] = 0, \\ E [X (Y - τ_{adj} Z - α X)] = 0. \end{aligned}$ 求解上述方程组, 得到 $τ_{adj} = τ + \frac{b c}{b^{2} + 1},$ 误差放大了.

一个直观解释是, 实验处理 $Z$ 是一个关于 $X, U$ 和随机误差项的函数. 如果给定 $X$ , $Z$ 就没那么随机了, 不可观测的 $U$ 带来的混杂偏差会被放大.

3.3 观察性实验中, 我们应该调整什么协变量?

我们永远不会知道真的生成数据的流程. 但是下面的例子帮我们说明很多想法. 它已经排除了 M 偏差的可能.

Pasted image 20260330171636.png|300

$X$ 既影响实验处理有影响结果. 给定 $X$ 能保证无混杂性假设.
$X_{R}$ 是纯粹的随机噪音, 不影响 $Z, Y$ . 在分析中包含它不会让估计有偏差但会带来更多的不必要的多变性.
$X_{Z}$ 是个工具变量, 只通过实验处理影响结果. 在分析中包含它不会让估计有偏差但会带来更多的不必要的多变性. 但是如果有未观测的混杂变量, 包含它会加大偏差.
$X_{Y}$ 只影响结果, 不影响实验处理. 不在它的条件下无混杂性假设成立. 因为它们对结果有预测作用, 所以包含他们通常会提升精度.
$X_{I}$ 被实验处理和结果影响. 它是处理后的变量, 不是处理前的协变量. 如果目的是推断实验处理在结果上的影响, 就不应该包含它.

如果我们相信上述因果图, 我们至少应该调整 $X$ 来移除偏差, 以及 $X_{Y}$ 来减小方差.

评估 (assess) 程度弱于检验 (test). 前者只是额外地支撑/质疑原本分析, 后者是正式的统计检验. ↩︎